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摘 要 : 现 有 的 聚 类 融合 算法 从 聚 类 成 员 的 角度 出 发 ， 若 使 用 全 部 聚 类 成 员 则 融合 结果 受 劣 质 成 员 影响 ， 对 聚 类 成 员 
进行 选择 再 进行 融合 则 选择 的 策略 存在 主观 性 。 为 在 一 定 程度 上 避免 这 两 种 局 限 性 ， 可 以 从 元 素 的 角度 出 发 ， 提 出 一 
种 新 的 聚 类 融合 方法 。 通 过 多 粒度 决策 不 一 致 粗糙 集 来 选择 一 部 分 类 别 确定 的 元 素 ， 再 利用 这 部 分 元 素 进 行 聚 类 融合 
生成 新 的 划分 ; 多 粒度 决策 不 一 致 粗糙 集 模型 能 够 刻画 多 粒度 决策 过 程 中 属性 一 致 而 决策 不 一 致 的 现象 ， 提 出 了 一 种 
基于 多 粒度 决策 不 一 致 的 粗糙 集 模 型 ， 并 给 出 了 一 种 聚 类 融合 方法 。 具 体 做 法 是 : 首先 在 数据 集 上 多 次 使 用 K-means 
聚 类 算法 ， 生 成 论 域 上 的 多 个 粒 结构 ; 其 次 对 所 有 粒 结构 两 两 之 间 求 粒 间 包 含 度 ， 建 立 包含 度 和 矩阵， 对 短 阵 使 用 Otsu 
算法 计算 内 值 ， 得 出 多 组 满足 冰 值 条 件 的 信息 粒 ， 求 解 多 粒度 决策 不 一 致 下 近似 和 上 近似 ; 最 后 分 别处 理 下 近似 与 边 
界 域 中 元 素 的 类 别 ， 从 而 获得 了 一 个 经 过 融合 的 聚 类 划分 。 实 验 结果 表明 ， 该 方法 能 够 有 效 改 善 聚 类 的 结果 ， 具 有 较 
高 的 时 间 效 率 ， 且 算法 具有 较 好 的 癌 棒 性 。 
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Abstract: Existing clustering ensemble algorithm starts from the perspective of cluster members, if all the cluster members are 
used, the ensemble result is affected by the inferior members. If the cluster members are selected and then used in ensemble, the 
p selected strategy has subjectivity. To avoid these two limitations to some extent, from the perspective of elements, nature 
i proposes a new clustering fusion method: selecting a part of class-determined elements through multi-granulation rough sets 
ra with incongruous decisions, and then using this part of the elements to generate a new clustering. Multi-granulation rough set 
= model with incongruous decisions can describe the phenomenon of inconsistent decisions with consistent attribute set, a model 
T of multi-granulation rough set with incongruous decisions and a clustering ensemble algorithm based on the model were 
>< proposed in this paper. First of all, run a K-Means clustering algorithm several times on the data set in the case, multiple granule 
( "S structures were generated. Next, inclusion degrees among all the granulations were calculated, and then the matrix of inclusion 
degree was obtained. Used Otsu's method to generate a threshold, then several group of granulation that met the threshold 
i condition were got. According to the model of multi-granulation rough set with incongruous decision, lower and upper 
《 approximations were obtained. Finally, classified the elements of lower approximation and boundary separately, then a clustering 
that has been fused was obtained. The experiments showed that the algorithm had a high time efficiency and robustness, which 
improved the result of K-means clustering. 
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0 az 类 算法 更 为 优越 的 结果 . 聚 类 融合 是 一 个 非常 强大 的 工具 ,可 以 
大 大 提高 非 监督 分 类 方法 的 健壮 性 以 及 稳定 性 。 经 典 的 多 粒度 

聚 类 分 析 B 是 在 探索 性 数据 分 析 领 域 尤其 是 在 数据 挖掘 和 粗糙 集 模 型 0 以 属性 集 上 的 子 集 来 确定 不 同 的 划分 ,从 而 形成 
知识 发 现 方面 的 一 种 重要 方法 ,用 以 揭示 数据 分 布 的 真实 情况 。 ”多 个 粒度 ,》 虚 属 性 集 完 全 相同 而 决策 不 同 的 情况 。 本文 提 
聚 类 分 析 目 前 已 被 成 功 应 用 于 工程 、 生 物 学 、 心 理学 、 药 学 等 。” 出 了 一 种 刻画 属性 集 相同 而 决策 不 同 的 现象 的 多 粒度 决策 不 一 
其 他 学 科 中 .目前 已 有 的 聚 类 算法 还 不 能 够 胜任 对 任意 分 布 情 ，” 致 粗糙 集 模型 ,丰富 和 发 展 了 多 粒度 粗糙 集 理 论 。 在 使 用 聚 类 算 
况 以 及 任意 形状 的 数据 的 聚 类 ,传统 的 聚 类 算法 都 是 为 特定 领 ” 法 生成 划分 的 过 程 中 ,经 常 存在 聚 类 算法 给 出 的 类 别 标签 不 一 
域 而 设计 的 ,在 伸缩 性 和 稳定 性 等 方面 存在 种 种 不 足 ,因此 引入 ” 致 ,这 种 情况 是 多 粒度 决策 不 一 致 粗糙 集 模型 的 一 个 特例 ,可 以 
聚 类 融合 45, 对 聚 类 结果 进行 合并 ,从 而 得 到 比 单 次 运行 聚 ”在 聚 类 融合 时 使 用 多 粒度 决策 不 一 致 粗糙 集 模型 。 聚 类 融合 是 
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录用 稿 于 佩 秋 ， 等 : 基于 多 粒度 粗糙 集 的 聚 类 融合 方法 
基于 聚 类 分 析 的 结果 而 产生 的 一 种 融合 策略 。 然后 借鉴 多 粒度 粗糙 集 思 想 中 ,定义 多 粒度 决策 不 一 致 粗 

对 于 聚 类 融合 ,目前 一 部 分 学 者 采用 对 已 有 的 所 有 聚 类 结 MEEL 
果 进 行进 一 步 融合 的 分 析 罗 辑 ba， 例 如 李 飞 江 等 人 回 提出 了 一 定义 2 ”多 粒度 决策 不 一 致 粗糙 集 。 设 MIDS = [sil1S; = 
种 粗糙 集 和 证 据 理论 相 结合 的 聚 类 融合 方法 ，Fredm 利 用 数据 (UL AT fii = 1,2,…,m} 是 一 个 多 粒度 决策 不 一 致 信息 系 


点 之 间 的 相似 度 建立 共生 和 矩阵， 通过 设置 阔 值 来 判断 矩阵 中 的 A5 IS; = (U AT fo, f: Ux AT 一 到 为 决策 函数 ， 则 多 粒度 决 


两 个 点 是 否 属于 聚 类 结果 中 的 同一 类 ， 此 外 还 有 Srehl 和  ” 策 不 一 致 下 近似 为 

Ghosh 提 出 了 三 个 基于 超 图 的 方法 MCLA, HGPA 和 CSPA. 这 IDym O) = {0 € Ulf; G2 =f 00Af 69 = BOA Af CO, 
些 方法 都 是 对 所 有 的 聚 类 结果 进行 融合 ,不 能 避免 劣质 聚 类 成 多 粒度 决策 不 一 致 上 近似 为 

员 对 聚 类 融合 的 质量 产生 的 影响 . 另 一 部 分 学 者 首先 对 聚 类 成 


IDym (x) = (y € UIf = fG0Vf2 = OV -- Vf. GO, 
多 粒度 决策 不 一 致 边界 为 


BNym p) = IDym f(x) 一 IDym pO) 


员 进 行 评 价 09, 剔 除 劣质 聚 类 成 员 而 后 再 进行 聚 类 融合 ,例如 
Faceli 等 人 中 通过 遗传 算法 闪 代 优化 得 到 最 优 的 融合 结果 ; 
Hong 等 人 0 提出 通过 首先 对 聚 类 成 员 进 行 选择 来 提高 最 终 聚 
K Eh AZE E h E. XR AE A Ja = FH ki 6 JH VS DH = y a ae "— 
类 融合 结果 的 质量 ; 阳 M 等 人 提出 J 种 基 J 粗糙 R 里 论 的 那么 称 (1Dymf Go， Dyr (x) ) 为 多 粒度 决策 不 一 致 粗粮 
聚 类 融合 加 权 和 迭代 模型 。 这 些 方法 对 聚 类 成 员 进 行 了 选择 ,但 聚 


类 成 员 的 评价 和 选择 具有 较 强 的 主观 性 ,从 而 使 聚 类 融合 结果 集 模型 。 
一 ”产生 一 定 程度 上 偏差 。 使 用 多 粒度 决策 不 一 致 粗糙 集 模型 求解 多 粒度 决策 不 一 臻 粗粮 集 具有 如 下 性 质 : 
~ 真实 聚 类 的 下 近似 ， 由 下 近似 中 元 素 的 类 别 决定 边界 域 中 元 素 站 
C^ 的 类 别 的 方法 可 以 在 一 定 程度 上 减弱 这 种 由 于 聚 类 成 员 的 选择 (2) Uxeu Dyn, (x) = U, UxeyIDy G9 = U; 
而 产生 的 偏差 。 (3) YU € ID». (x), Dyp, s (U) = Dyp, (Q3); 
事实 上 无 论 育 类 成 员 优 劣 程度 如 何 ,对 同一 真实 聚 类 而 言 NM - 
劣质 聚 类 成 员 与 优质 聚 类 成 员 对 某 些 元 素 的 归属 可 以 达成 共识 。 (4) Drm, 0) = Pa fO), Dyp (0 = Us fiGO; 
T pL RERUMS FUGESR FL GERE, KLERAN 证 明 ， 
多 粒度 粗糙 集 理论 求 多 粒度 下 近似 的 方法 求 劣 质 聚 类 成 员 与 优 macia ub spent 
质 聚 类 成 员 的 共识 元 素 。 将 在 一 个 完备 的 信息 系统 中 多 次 运行 


IDyr f), > IDy». 4 (x) c IDy». , (x). 


K-means 聚 类 算法 生成 多 个 划分 , 即 多 个 粒度 .每 个 划分 中 的 聚 
类 成 员 视 为 等 价 类 ,利用 多 粒度 融合 的 方法 , 求 这 些 聚 类 成 员 的 
下 近似 和 上 近似 。 通 过 考量 下 近似 中 元 素 和 边界 域 中 元 素 之 间 
的 关系 ,利用 “类 间 差 异 大 ,类 内 差异 小 ”的 聚 类 基本 原则 ,通过 求 。 “Uxev Dx = 本 类 似 可 证 Uxev Dy) = U. 


(2) vx e U 有 fi(x) = fix) (vi xm) Uc 
Uxev Dym œ), 54 一 y 面 VX€UIDy0)eU2 


距离 所 有 下 近似 距离 最 近 的 一 个 元 素 与 每 个 下 近似 中 部 分 紧邻 (3) Vu €U,ue Dyn, s (x) S vi < m, filu) = fi&) e 
元 素 的 平均 距离 的 最 小 值 来 决定 该 元 素 的 分 类 ,从 而 可 以 重新 IDywy Qu) = Dyp s GO. 
es (4) RIED = D GO, eril A SURE: 
au eU nd m vx € ID». s GO i f f, (x) = RODAR = BODA = Af CO T 
ul xenP.fo . 5 一 方面 vxentu fon tif G0 - 
1 ”多 粒度 决策 不 一 致 粗糙 集 fODARGO = ROJA Af GO, BI X € Dyn) , 综 上 所 述 
在 客观 世界 的 决策 过 程 中 ,由 于 决策 是 由 专家 给 出 的 ,存在 IDeu OO = Nfi, 
主观 性 , 即 基 于 同样 的 条 件 ,不 同 专家 给 出 的 决策 可 能 会 不 同 ,这 例 1 多 粒度 决策 不 一 致 信息 系统 与 上 下 近似 的 求解 
种 现象 在 本 文中 被 称 为 多 粒度 决策 不 一 致 。 首 先 给 出 多 粒度 决 设 论 域 U = (24,2, X3, X4, Xs), TE PAP AI [8] FREIE BE P 23 88 
策 不 一 致 信息 系统 的 概念 。 如 表 1 所 示 的 决策 表 。 
定义 1 多 粒度 决策 不 一 致 信息 系统 。 设 信息 系统 MS = 表 1 一 个 多 粒度 决策 不 一 致 信息 系统 
üsilI5; = (U, AT, fDi < mm) 为 多 粒度 信息 系统 ， 其 中 15; = U A D, U A D; 
(U, 4T,fi) 为 一 个 三 元 信息 系统 ，U = Ga, Xz,…, Xn} 为 非 空 有 限 A 1 1 A 1 1 
论 域 ; 4AT = (a, a5, am EASTER: f: U x AT 一 VIR X 1 1 xX 1 1 
函数 ,及 为 决策 指标 集 ， 即 vx e Uti f(x, AT) € 区 .车 3x € U,25 X3 2 2 Xs 2 2 
1<r<m,1< s< m, Efx) sf.G).T MIDS = {ISi MS; = X4 2 2 X, 2 2 
(U, AT, f) € 7) 为 多 粒度 决策 不 一 致 信 息 系统 。 Xs 3 2 Xs 3 1 


录用 稿 


显然 MIDS = USi|IS; = (U,4,fi),i= 1,2} 是 一 个 多 粒度 决 
策 不 一 致 信息 系统 .由 定义 1.2 A: ID 0n) = Dyp p) = 
(xx) > IDyv. (Ga) = IDym,f (x2) = (xp x2, X5} ， BNym f(x1) = 


BNym fi (x2) = {x5}. 
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设计 


ik (MGIDA) 的 


2.1. 噪声 的 去 除 和 多 粒度 不 一 致 下 近似 与 边界 域 的 求解 
首先 介绍 一 种 本 文 所 用 的 聚 类 算法 : K-means 聚 类 算法 : 

K-means 聚 类 算法 是 一 种 至 今 仍 然 广泛 应 用 的 经 
法 ， 该 算法 流程 如 下 : 设 聚 类 类 别 数目 为 上 ， 


, {xx}}， 分 别 代 表 k 个 类 ， 此 时 


p 
聚 类 入 


1. 选 定 k 个 初始 聚 类 中 心 K = (oa) {x2} 


Ki = {x1} K = {x2} s Kr = 0s 


0 LGORUICEIHSESERU PUSUSUS IURE PL REOR 
> (1) 对 每 个 x EU 一 K, 计 算 x 到 k 个 聚 类 中 心 的 距离 ， 假 设 x 到 Kk. 的 聚 类 
m 中 心 的 的 距离 是 最 近 的 则 使 K, = K, U x; 
T (2) 重新 计算 K, 内 样本 的 各 项 属性 的 平均 值 作为 K, 的 新 的 聚 类 中 心 
c 3. 输出 所 有 的 聚 类 中 心 和 元 素 类 别 ， 算 法 结 
To) WEUZJ3EZUH RER, 在 该 论 域 上 多 次 运行 聚 类 算法 后 生 
z 成 论 域 多 个 U 的 划分 , 把 每 次 运行 聚 类 算法 所 形成 的 划分 看 做 
Qe 是 单个 粒度 结构 ,多 次 运行 聚 类 算法 形成 多 个 粒度 结构 , 即 多 个 
CN 粒度 空间 。 利用 定义 2 的 性 质 (4) 可 以 方便 地 求 得 该 粒度 空间 
> 中 多 粒度 决策 不 一 致 下 近似 。 但 在 求解 的 过 程 中 ， 可 能 存在 
X 一 致 性 噪声 产生 的 下 近似 ， 在 利用 多 粒度 不 一 致 粗糙 集 模型 进 
E 行 融合 的 之 前 ， 需 要 去 除 这 些 噪声 。 方 法 是 首先 对 论 域 上 的 所 
_ 伟 。 有 粒 求 粒 间 包含 度 
o 定义 3UU 设 集合 4 与 B 是 论 域 U 的 非 空子 集 ,定义 集合 4 与 
集合 B 的 包含 度 为 
sim(A,B) = s - 5 
将 计算 得 到 的 包含 度 存 入 包含 度 矩 阵 5(C), 包 含 度 矩 阵 定 义 
如 下 : 
定义 4 包含 度 矩 阵 5(C)。 设 有 论 域 U 上 的 一 个 子 集 族 C = 
{Cn: Cn € 中 ,由 定义 2.1 计算 Ci(i NIGO < 四 之 间 的 相 容 


度 ,并 将 Ci 与 Gj 的 相 容 度 填 入 矩阵 5(C) 的 第 i 行 第 j 列 所 获得 的 算 
EE RI Lr ERR E e 

显然 有 任意 的 S(C) 中 的 值 大 于 等 于 0 且 小 于 等 于 1。 得 到 
i EB Jo RIF] Otsu 算法 (3 对 该 矩阵 计算 包含 度 闵 值 。Otsu 
算法 又 称 大 津 算法 ， 是 由 日 本 学 者 大 津 于 1979 年 提出 的 一 种 
使 前 景 与 背景 的 类 间 方 差 最 大 化 的 阔 值 方法 .用 以 对 图 像 进行 


p 


BEID E, VA JT TR OUT KK E 281 SCC) x B0 3548 73m, 
存在 阔 值 t 将 SCC) 中 的 所 有 元 素 分 为 两 类 , 大 于 t 的 类 A 和 小 于 t 的 
类 B, A 的 均值 为 ma, B 的 均值 为 mp, Nobuyuki Otsu02 给 出 的 类 
间 方 差 定 义 为 


14| |B| 


IaB = zz (ma — m)? 十 vins 一 m)’; 


VATERS 1 BER EEE HA AREER NR 
HAWK JE 8 4) CSS Jets oc See EE 8 E B D CB EAE 
取 使 得 IAp 最 大 的 一 个 t 

本 文 将 包含 度 和 矩阵 8S(C) 作 为 图 像 ， 计 算得 到 阔 值 后 ,小 于 
阐 值 的 包含 度 即 由 一 致 性 噪声 造成 的 (可 视 为 背景 )。 对 包含 度 
大 于 阔 值 的 粒 求 多 粒度 决策 不 一 致 下 近似 即 可 。 由 定义 2 的 性 
质 (4), 设 满足 疮 值 条 件 的 信息 粒 为 {Cs,,Cs,}, 则 vxE€e 
UE 1 Cs; Dyn p) = 2h, . 车 存在 IDyn, GO n 


Dyp &0) 关 凡 ， 则 合并 这 两 个 下 近似 ， 使 zfGo = 


IDyp O) = Dym, p) ULIDzPifO)。 在 以 后 的 讨论 中 ， 念 


BN = U — Uxey IDy} IDy? fi CO 438 Fl, 
例 2 去除 噪声 和 求解 多 粒度 决策 不 一 致 下 近似 与 边界 域 
设 论 域 U = (x, xz,xas,x4Xs} 使 用 聚 类 算法 运行 两 次 生成 的 划分 为 
(Gc, xo, tsh 06,43], Co = (Gn x Qs x x3]. 


计算 相 容 度 并 填 入 相 容 度 和 矩阵 ， 得 到 相 容 度 矩 阵 S(C) : 


= (c, c, RPC = 


1 0 2/3 1/5 
|o 1 0 2/3 
so- 2/5 0 1 0 
1/5 2/3 0 1 


使 用 Otsu 


法 计 


一 个 系统 函数 graythresh), 得 到 阔 值 为 0.4314, 则 满足 阔 值 条 件 的 信息 粒 


tBUÉE CIE MATLAB 数学 软件 中 ，Otsu 算法 是 


为 Gri 学 (x x2, xs}, {x1, 22], Gr, = (xs, x4}, Gc, x, xs 3] I RI E I EE AE TS 
包含 度 即 由 一 致 性 噪声 造成 ， 不 作 处 理 。 求 对 满足 阔 值 条 件 的 信息 粒 
解 多 粒度 决策 不 一 致 下 近似 并 求 边界 域 ,得 


IDyn fO) = IDyn f 02) = {X1, X2, X5} N 00, x2] = Go x2}; 


IDs (5) = ID ym p G4) = {X3,X4} N [xs Xa, X5} = {x3 x4} 


BN =U — IDyp G5) U IDym f(s) = fxs). 


定义 2, 下 近似 中 的 元 素 在 每 次 聚 类 的 过 程 中 都 同属 于 
一 类 , 所 以 下 近似 中 元 素 是 确定 同属 一 类 的 ,而 边界 中 的 元 素 则 
不 一 定 在 每 次 聚 类 过 程 中 都 同属 于 一 类 ， 所 以 边界 域 中 元 素 类 
别 是 不 定 的 ,所 以 需要 设计 算法 确定 边界 域 中 元 素 类 别 。 
2.9 ”边界 域 元素 的 处 理 

为 了 方便 处 理 边界 域 的 元 素 ， 首 先 给 出 聚 类 的 一 种 定义 ， 
该 定义 是 根据 “类 间距 离 大 ， 类 内 距离 小 ”得 出 的 。 

定义 5 设 (U,4, 有 为 完备 信息 系统 ， 给 定 距离 度量 


录用 稿 


案 类 即 在 U 上 建立 划分 C= {Cx:k = 
1,2,…,mj}, 使 得 对 于 任意 的 x,y e C:， 若 满足 对 于 任意 的 y' e 


Co d(x,y) < do, y), MX FER HZ ec; xj) A da, y) < 
d(x,z). 


d(x,y): U x U > [0, +0), X 


多 粒度 决策 不 一 致 
粗糙 集 模 型 不 可 避免 地 产生 边界 域 ,如 何 处 理 这 些 边界 域 中 元 
素 将 是 一 个 值得 讨论 的 问题 ;如 果 能 够 找到 多 粒度 决策 不 一 致 
近似 中 元 素 与 边界 域 中 元 素 的 某 种 关系 , 即 可 通过 下 近似 中 
的 元 素 的 类 别 来 确定 边界 域 中 元 素 的 类 别 。 由 定义 5 给 出 如 下 


定理 : 
定理 1 
上 的 一 个 聚 类 , C= (Gc Ces Cok 12, 


设 (U, 4,F) 为 完备 信息 系统 , C= (C: k 
mm 其 中 Cx 是 Ck 的 任 


二 1,2,…,m} 是 U 


Bipm TE, x EU- UP G Hd, y) =min{D (x,G):k = 


1,2,…,mm]} 对 任意 7 € Uta Cx 都 成 立 , 则 x e Ci 当 且 仅 当 存在 y e 
使 得 对 于 任意 的 zeEG(i# 有 有 d(x,y) < d(x,z) ,其 中 
D(x, X) = min(d(x,t):t E X). 

证 明 : 1) 充分 性 


d(x,y) = min [D [xit < m} y € U£ci Ck > 则 


aC; s. t.d(x,y) =D (5G Ge Cj vzeu- Ci d(x,y) < 


d(x,z) SS vzEU—CEU — C, d(x, y) < d(x,z) >x E Cio 
2) 必要 性 


ZieC,xeU- Uk=1 Ck Hd(x,y) = min [D (x, &):k = 


1,2,…,m] 对 任意 ye Uka ARZ, Wy e C HYZ E GG » j) 


有 d(x,y) < dGx, z). EN y € GC + j), It e Ci 且 满 足 d(x,t) = 


min(d(x,r)|r € Ci) fid Gs, y) < d(x,t) > x eC, JB. 
说 明 :定理 1 给 出 了 一 种 处 理 边 界 域 元 素 的 方式 ， 即 距离 所 有 


下 近似 最 


近 的 一 个 元 素 (最 小 的 D (x, C.) , k < m) 一 定 属于 


距离 这 个 元 素 最 近 的 一 个 下 近似 。 可 以 通过 寻找 距离 所 有 下 近 
似 最 近 的 一 个 边界 域 元 素 x 并 将 该 元 素 并 入 距离 它 最 近 的 一 个 
近似 以 逐步 缩小 边界 域 。 由 于 真实 数据 集 存在 复杂 性 ， 所 以 
比较 可 靠 的 方式 是 用 x 到 下 近似 中 最 近 的 
数 为 No) 的 平均 距离 来 代替 x 到 下 近似 中 最 近 的 一 个 元 素 的 距 
离 .然后 通过 比较 x 到 所 有 下 近似 距离 的 最 小 值 即 可 得 出 边界 域 


部 分 元 素 〈 元 素 个 


min{|cx|Ik=1,2,…m)} 


中 每 个 元 素 的 归属 。 


在 本 文中 取 No = +1 


重复 这 一 过 程 ， 当 边界 域 中 所 有 的 元 素 都 被 并 入 下 近似 后 ， 论 
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域 中 不 再 存在 类 别 不 确定 的 元 素 ， 即 形成 了 一 个 新 的 划分 。 
例 3 边界 域 元 素 的 处 理 


续 例 2，BN = 也 一 IDym s) U IDym 4x3) = = X5 BN = BN — 


min{2,2} 
2 


*t1-223&6Gr f Har RER FMA, GARE 


ds nasa) . 则 Gr, EN 


fxs} No = 
Grz 求 得 的 下 近似 ， 若 2 < 
Gr, U {xs}, BMG 
AE T VJ E 6.45 HETE AEREA BE RRAK 
融合 算法 : 

算法 1 基于 多 粒度 决策 不 一 臻 粗糙 集 的 聚 类 融合 算法 (MGIDA) 


= Grz U (xs]- 


输入 : 运行 多 次 或 多 个 聚 类 算法 生成 的 一 族 划分 。 

输出 : 一 个 经 过 聚 类 融合 的 划分 。 

Step! 计算 相 容 度 矩阵 ; 

Otsu 算法 计算 相 容 度 窍 阵 的 阔 值 ， 聚 类 成 员 之 间 相 容 
个 满足 阔 值 条 件 的 信息 粒 ， 求 出 所 有 这 样 的 信息 


Step2 使 
ERT BEBI — 
Ti 


定义 2 求解 下 近似 ， 求 边界 域 BN; 


Step3 利 


Step4 取 x € BN 且 满 足 d(x,y) = min fo (s IDym fi IDs. 0) 


TEE 1 的 说 明 的 方法 对 x 重新 归 类 ; 


1,2,:…,m;xX E 中 ,全 
Step5 BN — BN 一 {x}; “BN + 6 时 转 至 Step4; 
Step6， 输 出 所 有 元 素 的 类 别 。 

为 了 验证 算法 的 有 效 性 .下 面 在 10 个 数据 集 上 进行 验证 。 


3 ”实验 结果 对 比 与 分 析 


vit 
¥ 


使 用 的 数据 集 相关 的 信息 如 表 3 所 示 。 为 使 同一 数据 身 
生 不 同 的 较 差 的 划分 ,使 用 算法 2 对 数据 集 进行 处 理 ,算法 的 
体 过 程 如 例 4。 

例 4 使 用 同一 数据 集 生成 不 同 的 弱 划 分 

给 定 信息 系统 如 表 2 所 示 ， 分 别 生成 2 个 模 为 1 的 一 维 随机 向 量 ; 


rı = (0.5030,0.8406,0.2007)7, 


= (0.0979,0.6985,0.7089)7; 
分 别 使 7 r1, U r24 P "PROB EET AE: 


= (0.6967,0.4586,0.8946,1.3101)’, 


= (0.6454,0.4254,0.8774,0.9974)T. 


表 2 一 个 不 带 决策 的 信息 系统 


U Q4 az a3 

Xi 0.4173 0.4929 0.3692 
X2 0.0497 0.4893 0.1112 
X3 0.9027 0.3377 0.7803 
X4 0.9448 0.9001 0.3897 


C hinaY nr ME BHR-TII 
ChinaXiver TE RHTU 
录用 稿 于 佩 秋 ， 等 : 基于 多 粒度 粗糙 集 的 聚 类 融合 方法 
分 别 对 不 , Un EM K-means 聚 类 算法 进行 聚 类 ， 得 到 两 0.0054 — 20.0097 +0.0071 4+0.0034 +0.0049 — 20.0092 
个 不 同 的 弱 划 分 : 0.7213+ 0.6725 0.7803 0.725 0.7743 0.7989 
6 
C, = {fx xp x3}, Gud] C2 = (Gc x2}, {x3, x4 }}, 0.0005 =0.0022 240.0077 040.0007 250.0112 20.0152 
这 样 就 使 用 同一 数据 集 生 成 了 不 同 的 弱 划 分 。 0.8810+ — 0.4673 0.9200+ 0.8714 0.8079 0.8787 
7 
R ' 0.0022 — 20.0098 — 0.0012 — 20.0015 20.0174 20.0180 
算法 2 中 弱 划 分 的 生成 
- 0.8560 0.6035 0.9165 0.8544 0.8684 0.8897 
1: 生成 一 个 随机 的 d 维 随机 向 量 w, 并 使 |u| = 1 8 
0.0002 — 20.0000 — 20.014 40.0008 — 240.0139 40.0081 
2: X = Xnxa nasa 0.78522 0.7852 . 0.9018 0.7852 0.9192 0.9053 
f 9 
3: Am € KMeans(X')(m < n) 0.0000 =0.0000 40.0006 +40.0000 240.0028 20.0068 
{EH K-means 算法 对 处 理 后 的 数据 集 进行 聚 类 .使 用 CSPA、 0.9084 0.9084 0.9084 0.9084 0.9084 0.9087 
10 
HGPA, MCLA (前 三 者 均 为 基于 图 的 聚 类 融合 算法 )、IWCE[I31 +0.0000 =0.0000 +0.0000 +0.0000 20.0000 +0.0000 
(基于 粗糙 集 理 论 的 聚 类 融合 加 权 和 迭代 模型 )、DSCEI51 (多 粒 de o 
度 信息 融合 : 一 种 基于 证 据 理论 的 聚 类 集成 方法 ) 作为 对 比 算 "| HGPA 
0.8 4 
法 。 ,7 | MCLA 
N 其 --IWCE 
363 实验 使 用 的 UCI 数据 集 E "^ | 一 DscE 
0.5 4 
ID 数据 集 实例 数 ” 属 性 类 数 | es 
1 Turkey Student Evaluation Generic 5820 31 13 0.3 
2 Epileptic Seizure Recognition Data Set 11500 178 5 = 
0.1 
3 Data User Modeling Dataset 258 5 4 l 2 3^ d LESE 7 8 9 10 
数据 集 标签 
4 Synthetic control Data 600 60 6 
5 Seeds data set 210 7 3 | 1 UCI 数据 对 比 实验 结果 
6 Wine Recognition data 178 13 3 取 100 次 试验 的 聚 类 精度 和 方差 的 平均 值 ,与 基于 多 粒度 
7 Iris Bu. A3 3 决策 不 一 致 粗糙 集 的 聚 类 融合 算法 (MGIDA ) 进行 对 比 ,使 用 
8 M hic Mass Dat 830 5 2 - TR "M - 
pc M C MEE 聚 类 精度 作为 评价 聚 类 效果 的 指标 ,得 到 如 表 4 与 图 1 的 结 
9 Pima Indians Diabetes Database 768 8 2 2 " 
果 。 由 对 比 实 验 结果 可 以 看 出 ,MGIDA 在 第 3、6、10 数据 集 
10 HTRU2 17898 8 2 
. 本 和 一 上 取得 了 最 优 的 聚 类 精度 ,在 第 2、4、5、7、8、9 数据 集 取得 
每 次 生成 4 个 弱 划 分 进行 聚 类 融合 ,融合 结果 与 真实 的 聚 
了 次 优 的 聚 类 精度 或 十 分 接近 〈-0.0113, 第 4 个 数据 集 ，- 


类 对 比 计算 聚 类 精度 00, 聚 类 精度 定义 如 下 : 


0.0323, 第 5 个 数据 集 ，-0.0023, 第 7 个 数据 集 ，) ,MGIDA 明 
© Ae 2 显 地 优 于 HGPA, 只 在 第 3 个 数据 集 上 劣 于 MCLA, 在 第 2、4、 
其 中 ,车 真实 的 聚 类 划分 为 CR = {C1 C2,…, Ckj}, 聚 类 融合 得 到 的 。 7. 8. 9 数据 集 上 优 于 MCLA, 在 其 他 数据 集 上 劣 于 MCLA, H 
聚 类 划分 为 Cr = {F Fa, =, Fi), Dl 与 该 方法 精度 差距 不 大 ; MGIDA 只 在 第 4,5 数据 集 上 劣 于 
ny 7 [Gn ELI < k; IWCE， 只 在 第 9 数据 集 上 劣 于 DSCE. 综 上 可 知 上 本 文 的 算法 
表 4UCI 数 据 对 比 实验 结果 在 每 个 数据 集 上 都 不 是 精度 最 差 的 算法 。 算 法 2 使 同一 数据 生 
CSPA HGPA  MCLA IWCE DSCE | MGIDA 成 不 同 的 弱 划 分 本 质 上 是 在 数据 集 上 挫 杂 了 不 同 程度 的 噪声 ， 
0.1739+ 0.1742 0.1713 0.1742 0.1688 0.1683 即 通过 扭曲 数据 的 方式 产生 噪声 ,所 以 在 这 种 含 噪声 数据 的 数 


0.0000 0.0000 +0.0000 +0.0000 0.0000 0.0000 据 集 上 表现 较 好 的 算法 具有 较 好 的 鲁 棒 性 ,本 文 的 算法 聚 类 精 


0.2729+ 0.2097 0.2385 0.1740 0.1284 0.2477 ep — E 
2 度 即 使 不 能 取得 最 优 ,也 可 以 取得 或 接近 次 优 ， 说 明 本 文 的 算 
0.0000 40.0000 40.0001 20.0000 20.0000 0.0000 


0.4744 — 0.4074 — 0.4589 0.4780 ^ 0.4613 0.4992 ica ge E A E Rs 
i .0011 .0009 — 20.0021 — 40.0031 — 20.0024 40.0152 算法 2 将 多 维 数据 随机 地 映射 成 “ 维 数据 ， 所 以 各 算法 在 
0.6370+ — 0.8195 — 0.65818 0.6573 0.5676 0.6460 有 的 数据 集 上 表现 一 般 ， 对 于 分 布 较为 复杂 的 数据 集 则 表现 较 
i 0.0056 — 20.0068 — 20.0002 — 20.0007 — 20.3200 +0.0009 差 ， 这 是 因为 数据 的 扭曲 使 得 生成 的 聚 类 成 员 不 能 很 好 地 反映 


5 0.7652+ 0.5790 0.7300 0.7784 0.6730 0.7329 数据 的 真实 分 布 所 造成 t 


Em 


表 5 时 间 效 率 对 比 表 /s 合算 法 进行 对 比 ,使 用 聚 类 精度 作为 指标 ,验证 了 算法 的 有 效 

CSPA HGPA MCLA  IWCE DSCE | MGIDA 性 。 从 实验 结果 可 以 看 出 新 的 聚 类 融合 算法 在 部 分 数据 集 上 可 
1 9.00171 0.4925 0.3501 396.9662 46.6548 1.044 以 取得 最 优 ,不 能 取得 最 优 时 ,也 可 以 取得 或 接近 次 优 。 本 文 的 
2 73 0.7581] 0.5719 332.7406 142468 0.6406 算法 具有 较 好 的 鲁 棒 性 .在 时 间 效率 上 ,本 文 的 算法 在 小 数据 集 
3 0.5021 0.4521 0.4588 15.569 0.0818 — 0.1131 上 也 具有 较 大 优势 。 
4 0.6138 0.5267 0.4719 18.7822 0.335 0.0521 K-means 算法 对 于 非 凸 形 分 布 的 数据 聚 类 效果 不 好 ,但 基 
5 0.4322 03861 0.14 1.8168 0.0434 0.0666 于 本 文 的 定理 1, 对 于 非 凸 形 分 布 的 数据 本 文 所 提出 的 聚 类 融 
6 0.4252 0.4166 0.4299 1.7214 0.0336 0.0688 合算 法 受 数 据 分 布 的 影响 较 小 ,改进 本 文 的 算法 可 以 应 用 于 非 
7 0.4614 0.4055 0.4211 1.8332 0.0718 0.0695 凸 形 分 布 的 数据 ,将 是 一 个 值得 研究 的 问题 . 


8 1.0599 0.4887 0.4075 43502 0.4854 0.0528 
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是 影响 算法 运行 时 间 的 最 重要 因素 ， 且 边界 域 较 小 时 算法 的 
时 间 复 杂 度 较 低 。 由 表 5 与 图 2 可 得 , MGIDA 在 4 个 数据 集 上 
有 最 好 的 时 间 效 率 ， 在 除 第 1 数据 集 外 的 其 他 数据 集 上 均 取 得 
了 次 优 的 时 间 效 率 ， 算 法 的 时 间 复 杂 度 较 小 .值得 注意 的 是 
MGIDA 在 小 数据 集 的 时 间 效 率 较 高 ， 在 数据 集 的 数据 量 增 大 
时 表现 一 般 ， 如 图 2 所 示 。 
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